검증의 논리적 우선성
통계적 추론은 본질적으로 조건부. 우리는 매개변수 $\theta$에 대해 내리는 모든 결론은 관측된 데이터 $s$가 우리의 가정된 모델 $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$ 내의 어떤 분포로부터 생성되었다는 전제에 엄격히 묶여 있습니다.
추정: 진짜 확률분포 $P_{true}$가 $\mathcal{M}$에 포함되어 있다고 가정하고, "최적"의 $\theta$를 찾습니다 (예: 최대우도추정치 $\hat{\theta}$). 이는 모델 내부에서 모델 안에서 작동합니다.
모델 검증: 모델이 참이라는 전제를 완화합니다. 그것이 어떤 $\theta \in \Theta$ 중 어느 것이 데이터의 패턴을 설명할 수 있는지 묻습니다. 이는 모델 위에서 모델 안에서 작동합니다.
관련성 위기 (오류)
데이터를 생성한 진짜 분포가 통계 모델 $\mathcal{M}$ 외부에 있다면, $\theta$는 과학적인 의미를 잃습니다. 우리는 통계적 오류에 빠집니다: 이후의 추론의 관련성이 의심스러워집니다. 우리는 실재하는 물리적 현실이 아니라 수학적 환상의 성질을 계산하고 있는 것입니다.
예제 9.1.1: 위치 정규 모델
우리가 $X_i \sim N(\theta, 1)$이라고 가정하는 가장 간단한 경우를 생각해 봅시다.
우리는 표본 평균 $\bar{x}$를 계산합니다. 정규 모델 하에서 $\bar{x}$는 데이터의 '중심'에 대한 최적 추정치입니다.
실제로 데이터가 극단적인 이상치를 포함하거나 꼬리가 두꺼운 카시 변량 분포를 따릅니다. $\bar{x}$를 여전히 기계적으로 계산할 수 있지만, 그것은 분포의 중심을 의미 있는 방식으로 표현하지 못하게 됩니다. 정규 모델이 유효하지 않았기 때문에 신뢰구간은 위험할 정도로 좁아져, 잘못된 확신을 초래합니다.